Я решила подойти к пробеме оттока со стороны банка и задать вопрос: какие клиенты наиболее важны для банка?
Так как для проведения операций и предоставления услуг клиентам банка необходимо иметь капительные активы, он будет держаться за клиентов, хранящих в нем большие суммы, потому как свои активы банки берут из обязательств, куда и входят средства клиентов.
Для начала я рассмотрела, как в целом распределены размеры балансов среди клиентов:
Чтобы подтвердить мое суждение о том, что вся сумма на счетах клиентов банка во многом состоит именно из балансов крупных клиентов, я разделила индивидов из имеющейся базы на 5 групп: отдельно вынесла людей с нулевым балансом,так как их подавляющее большинство, а оставшиеся группы выделила в соответствии с распределением ненулевого баланса по кваннтилям. В результате я построила график, который показывает, какую долю в общем балансе банка занимает каждая из категорий.
На грфафике видно, что большую часть полной суммы составлют балансы клиентов из групп The heighest Balance и Higher Balance.
В целом размер балансов распределен так, что больше четверти клиентов имеют нулевые счеты, и лишь четверть переходит за границу выше 127 тысяч евро. Так, в исследуемый мной сегмент я включила людей с балансом больше третьего квартиля, которые и формируют почти половину общего баланса банка.
| 0% | 25% | 50% | 75% | 100% |
|---|---|---|---|---|
| 0 | 0 | 97198.54 | 127644.2 | 250898.1 |
Для начала посмотрим на отток клиентов, характерный для всего датасета:
В рассматриваемом же сегменте соотношение по оттоку немного другое. Доля клиентов с высоким балансом, уходящих из банка, немного выше, чем процент оттока клиентов в целом в датасете:
Чтобы предсказать отток этой группы мною была построены модель случайного леса, где зависимая переменная - Exited (показатель оттока), а объясняющими выступают все показатели из таблицы churn, кроме id клиента, так как эта переменная не несёт никакой смысловой нагрузки. Показатели точности модели для тестовой и обучающей выборок оказались следующими:
| Sensitivity | Specificity | Accuracy | |
|---|---|---|---|
| Тестовая выборка | 0.46 | 0.95 | 0.84 |
| Обучающая выборка | 1.00 | 1.00 | 1.00 |
Так, я решила, что модель достаточно хорошо предсказывает отток.
Далее, для того, чтобы понять, какие показатели могут влиять на отток, я проанализировала важность переменных в модели randomforest:
Так как банк не может повлиять ни на возраст клиента, ни на его баланс, ни на кредитный рейтинг, ни на зарплату, следующим по важности фактором является количество используемых продуктов. Я предполагаю, что при использовании большего числа продуктов клиенты будут реже уходить из банка. Тогда для решения проблемы оттока обеспеченных клиентов банку нужно будет как можно чаще проводить кампании по продвижению своих продуктов и, возможно, уникальных предложений для данного сегмента.
Так выглядит распределение по количеству используемых продуктов среди клиентов с высоким балансом:
Для уменьшения оттока попробуем изменить NumOfProducts на тестовой выборке. Предположим, что после успешного проведения маркетинговой кампании по продвижению новых продуктов, 30% всех клиентов с высоким балансом, которые ранее пользовалиь лишь одним продуктом, начали использовать два.
Новое распределение по количеству продуктов на тестовой выборке будет следующим:
Теперь посмотрим, как изменился бы отток клиентов данного сегмента на тестовой выборке после проведения предложенной мной кампании:
Таким образом, при изменении количества используемых продуктов банка, клиенты с высоким балансом становятся более склонны к тому, чтобы сохранить счет в банке.